#Gemini Robotics
科幻! Google放出Gemini Robotics-ER 1.5:機器人有了真正的思考力
Google剛剛放出了其最先進的機器人具身推理模型——Gemini Robotics-ER 1.5。這是第一個被廣泛開放給所有開發者的Gemini機器人系列模型,它將作為機器人的高階推理大腦Gemini Robotics-ER 1.5(簡稱Gemini Robotics-Embodied Reasoning)是一種視覺-語言模型(VLM),可將Gemini 的智能體功能引入機器人技術領域。 Gemini Robotics-ER 1.5 是一款思考型模型,能夠推理實體世界、原生呼叫工具,並規劃邏輯步驟來完成任務雖然Gemini Robotics-ER 1.5 與其他Gemini 模型類似,但它是專門為增強機器人感知能力和現實世界互動能力而建構的。它透過以下方式提供高階推理功能來解決物理問題:解讀複雜的視覺資料、執行空間推理,以及根據自然語言指令規劃行動在操作方面,Gemini Robotics-ER 1.5 旨在與現有的機器人控製器和行為配合使用。它可以按順序呼叫機器人的API,使模型能夠編排這些行為,以便機器人完成長時程任務透過Gemini Robotics-ER 1.5,可以建構以下機器人應用:讓人們能夠使用自然語言來分配複雜的任務,從而使機器人更易於使用透過使機器人能夠推理、適應和回應開放式環境中的變化,提高機器人的自主性Gemini Robotics-ER 1.5 為各種機器人任務提供統一的模型:定位與辨識對象1.精準地指向並定義環境中各種項目的邊界框。瞭解對象關係2.推理空間佈局和環境背景訊息,以便做出明智的決策。規劃抓取和軌跡3.產生用於操縱物體的抓取點和軌跡。解讀動態場景4.分析視訊幀,以追蹤物件並瞭解一段時間內的動作。編排長時程任務5.將自然語言指令分解為一系列邏輯子任務,並對現有的機器人行為進行函數呼叫。人機互動6.透過文字或語音理解以自然語言給予的指令Gemini Robotics-ER 1.5預覽版現已開放。可以透過以下方式開始體驗:啟動 Google AI Studio 來實驗模型。閱讀開發者檔案以取得完整的快速入門和API參考https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn官方的 Colab notebook 查看實際應用案例https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch完整技術報告:https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf這個模型專為那些對機器人來說極具挑戰性的任務而設計。想像一下,你對一個機器人說:“請把這些物品分類到正確的廚餘、可回收和普通垃圾桶裡。”要完成這個任務,機器人需要:1.上網找本地的垃圾分類指南。2.理解眼前的各種物品。3.依本地規則規劃出分類方法。4.執行所有步驟,完成投放。像這樣的日常任務,大多需要結合上下文資訊並分多步驟才能完成。Gemini Robotics-ER 1.5正是第一個為這種具身推理(embodied reasoning)而最佳化的思考模型。它在學術基準和內部基準測試中都達到了業界頂尖水平Gemini Robotics-ER 1.5有那些新能力?Gemini Robotics-ER 1.5專為機器人應用進行了目標微調,並引入了多項新功能:快速且強大的空間推理:以Gemini Flash模型的低延遲,實現頂尖的空間理解能力。模型擅長產生語義精確的2D座標點,這些座標點基於對物品尺寸、重量和功能可供性的推理,從而支援如「指出所有你能拿起的物體」這類指令,實現精確、快速的互動協調高階智能體行為:利用先進的空間和時間推理、規劃和成功檢測能力,可靠地執行長周期任務循環(例如,「按照這張照片重新整理我的書桌」)。它還能原生呼叫Google搜尋和任何第三方自訂函數(例如,「根據本地規定將垃圾分類」)靈活的思考預算:開發者現在可以直接控制模型的延遲與精準性之間的權衡。這意味著,對於像規劃多步驟組裝這樣的複雜任務,你可以讓模型「思考更長時間」;而對於探測或指向物體等需要快速反應的任務,則可以要求更快的反應改進的安全過濾器:模型在語義安全方面進行了改進,能更好地識別並拒絕生成違反物理約束的計畫(例如,超出機器人的有效載荷能力),讓開發者可以更自信地進行建構智慧大腦你可以將Gemini Robotics-ER 1.5視為機器人的高階大腦。它能理解複雜的自然語言指令,對長周期任務進行推理,並協調複雜的行為。當收到一個像「把桌子收拾乾淨」這樣的複雜請求時,Gemini Robotics-ER 1.5能將其分解成一個計畫,並呼叫正確的工具來執行,無論是機器人的硬體API、專門的抓取模型,還是用於運動控制的視覺-語言-行為模型(VLA)。高級空間理解能力為了與物理世界互動,機器人必須能夠感知和理解其所處的環境。 Gemini Robotics-ER 1.5經過微調,能夠產生高品質的空間結果,為物體提供精確的2D座標點在指向精確度方面,Gemini Robotics-ER 1.5是目前最精確的視覺語言模型例如,在2D座標點產生任務中,給定一張廚房場景的圖片,模型可以提供每個物品的位置提示:指出圖中的以下物品:洗碗精、碗碟架、水龍頭、電鍋、獨角獸。座標點格式為[y, x],數值歸一化至0-1000。只包括圖中實際存在的物品。值得注意的是,提示要求模型只標記圖中出現的物品,這可以防止模型產生幻覺(例如為不存在的「獨角獸」生成座標),使其始終基於視覺現實時間推理能力真正的時空推理不僅要定位物體,也要理解物體與行為之間隨時間展開的關係。Gemini Robotics-ER 1.5透過處理影片來理解物理世界中的因果關係。例如,在一個影片中,機械手臂先將一支綠色記號筆放入木盤,再將藍色和紅色的筆放入筆筒。當我們要求模型按順序描述任務步驟時,它給出了完全正確的答案提示:詳細描述完成任務的每一步。按時間戳分解,以json格式輸出,包含"start_timestamp", "end_timestamp" 和"description" 鍵。響應:[  {    "start_timestamp": "00:02",    "end_timestamp": "00:13",    "description": "左機械臂從桌上拿起綠色記號筆,並將其放入木盤中。"  },  {    "start_timestamp": "00:15",    "end_timestamp": "00:22",    "description": "左機械臂從桌上拿起藍色筆,並將其放入黑色網狀筆筒中。"  },  {    "start_timestamp": "00:23",    "end_timestamp": "00:28",    "description": "右機械臂從桌上拿起紅色筆,並將其放入黑色網狀筆筒中,完成了整理書寫工具的任務。"  }]模型甚至可以根據要求,對特定時間段(如第15秒到22秒)進行更細緻的逐秒分解,輸出結果在時間上非常精確基於可操作性推理來協調長周期任務,當啟用思考功能時,模型可以對複雜的指向和邊界框查詢進行推理。以下是一個製作咖啡的例子,展示了模型如何理解完成任務所需的“如何做”和“在那裡做”1. 問: 我該把杯子放在那裡來沖咖啡?答: 模型:在咖啡機下方標記出一個邊界框2. 問: 咖啡膠囊該放在那裡?答: 模型:在咖啡機頂部的膠囊倉位置標記出邊界框3. 問: 現在,我需要關上咖啡機。請繪製一條由8個點組成的軌跡,指示蓋子把手應如何移動以關閉它答: 模型:產生了一條從開啟到關閉位置的精確路徑4. 問: 我喝完咖啡了。現在該把杯子放在那裡清洗?答: 模型:在水槽中標記了一個點透過結合規劃和空間定位,模型可以產生「空間錨定」計畫,將文字指令與物理世界中的具體位置和動作連結起來靈活的思考預算下圖展示了調整Gemini Robotics-ER 1.5模型思考預算對延遲和效能的影響模型的效能隨著思考token預算的增加而提升。對於像物體偵測這樣的簡單空間理解任務,很小的預算就能達到高效能;而更複雜的推理任務則需要更大的預算這使得開發者可以在需要低延遲反應的任務和需要高精度結果的挑戰性任務之間取得平衡。開發者可以透過請求中的thinking_config選項來設定思考預算,甚至停用它 (AI寒武紀)
Google最強機器人「大腦」來了:一句話完成垃圾分類
Google DeepMind 於9 月26 日正式發表了Gemini Robotics 1.5 系列模型一句話指令,就能完成複雜的垃圾分類,這背後有那些關鍵技術?🌐 一|AI Agents走向物理世界Google DeepMind 發表的 Gemini Robotics 1.5 系列模型,被認為是讓AI 智能體真正進入現實世界的重要一步。它們不僅能理解語言、看懂畫面,還能自主規劃並完成複雜任務。例如,最驚豔的演示是垃圾分類:只需要一句話——“請按照當地要求把桌子上的垃圾分類好”,機器人就會先上網查詢本地規則,再識別物品,最後一件件放入正確的垃圾桶。這標誌著,AI 從“虛擬螢幕”第一次跨進了“物理世界”,並且能把思考變成行動。⚙️ 二|兩個核心模型:小腦與大腦Gemini Robotics 1.5 系列由兩款核心模型組成,它們像是機器人的「小腦」和「大腦」。Gemini Robotics 1.5(VLA 模型):它將視覺、語言和動作結合起來,將人類的語言和圖像理解轉化為機器動作。執行之前,它會先“想一想”,把思考過程展現出來,學到的經驗還能跨機器人共享。Gemini Robotics-ER 1.5(VLM 模型):它更像機器人的“大腦”,不僅能看懂現實世界,還能推理、規劃,甚至呼叫外部工具來產生詳細的多步驟方案。在空間理解和具身推理測試裡,它的成績已經超越了GPT-5 和Gemini 2.5 Flash。一個管行動,一個管推理。兩者結合,讓機器人真正擁有了「先想後做」的智慧閉環。🔑 三|關鍵技術亮點Gemini Robotics 1.5 系列的突破不只是性能提升,而是讓機器人擁有了更像人類的學習與行動方式。思維鏈機制:在執行前,模型會顯式「說出」自己的推理,就像你看見機器人在打草稿,過程更透明,也更安全。模型協作:大腦負責規劃,小腦負責執行,形成「指揮官+士兵」的模式。跨本體學習:一個機器人學會的技能,可以遷移給另一個機器人,就像學生之間可以互相傳授經驗。工具呼叫:機器人能主動聯網或使用數字工具,例如查垃圾分類規則,然後才去動手執行。這一切讓機器人從「機械執行者」進化為「理解與行動的結合體」。🚀 四|突破的意義如果說以前的機器人像是“高級機械手”,那麼現在它們已經能處理複雜的現實任務。在家庭裡,它可以整理物品、打掃房間。在工廠裡,它能分步驟完成精細工序,減少人工誤差。在醫院裡,它有潛力輔助醫生完成需要精確配合的操作。從“單步命令”到“長鏈路任務”,從“被動執行”到“主動規劃”,這場升級意味著機器人正在進入一個全新的智能時代。📌 五|開放與未來Google已經開放了部分介面:Gemini Robotics-ER 1.5 可透過Google AI Studio 的Gemini API 使用。Gemini Robotics 1.5則暫時只開放給部分合作夥伴。同時,Google也發布了詳細的技術報告。這意味著,未來開發者和產業界都能藉助這些新模型,把AI 賦能的機器人應用到更多場景中。🪶 結語AI 正從代碼和資料中走出來,進入真實世界。 Gemini Robotics 1.5 系列,不只是性能迭代,而是一次範式轉變:它讓機器人第一次學會了「先思考,再行動」。或許在不遠的將來,一句話,就能喚醒一個真正理解你需求的機器人夥伴。(方到)
剛剛,Google發佈機器人最新「大腦」模型!思考能力SOTA,還能「跨物種」學習
【新智元導讀】Google最新發佈的Gemini Robotics 1.5系列模型,讓機器人真正學會了「思考」,還能跨不同具身形態學習技能。這意味著,未來的機器人將成為和人類協作、主動完成複雜任務的智能夥伴。Google又給機器人「換大腦」了!剛剛,DeepMind發佈了針對機器人和具身智能的Gemini Robotics 1.5系列家族模型,專為機器人和具身智能打造的新一代「大腦」。Gemini Robotics 1.5系列包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5。Gemini Robotics 1.5,最先進的視覺-語言-行動模型,能將視覺資訊和指令轉化為機器人的運動指令以執行任務。Gemini Robotics-ER 1.5,最強大的視覺-語言模型,能夠對物理世界進行推理,直接呼叫數字工具,並建立詳細的多步驟計畫來完成任務。它們結合在一起,就建構出一個強大的智能體框架。在下面這個1分40秒的視訊,Google的研究科學家讓兩個機器人完成了兩個不同任務。第一個任務是垃圾分類。請Aloha根據舊金山的垃圾分類標準,把物品分到堆肥(綠桶)、回收(藍桶)和垃圾(黑桶)裡。Aloha通過查閱規則並觀察物品,完成了分類任務。第二個任務是打包行李。請Apollo幫忙打包去倫敦旅行的行李,並放入針織帽。Apollo還主動查詢天氣,提醒倫敦多天會下雨,並貼心地把雨傘也放進包裡。整體看下來,在最新系列模型的加持下,現在機器人已經越來越有科幻電影裡的那味了!為實體任務開啟智能體體驗想像一下,一個機器人不僅能看懂你家客廳的雜物,還能規劃、思考並親手收拾乾淨。Gemini Robotics 1.5正是朝這個目標邁出的關鍵一步。它讓機器人具備「思考後行動」的能力,能在複雜環境中像人類一樣理解、推理並完成多步驟任務。這一突破,有望打開通用機器人的新時代。Gemini Robotics-ER 1.5擅長在物理環境中進行規劃與邏輯決策,擁有頂尖的空間理解能力,支援自然語言互動,可評估任務成功率與進度,並能直接呼叫Google搜尋等工具獲取資訊或使用任何第三方使用者自訂功能。隨後,Gemini Robotics-ER 1.5會為Gemini Robotics 1.5提供每一步的自然語言指令,後者則運用其視覺與語言理解能力直接執行具體動作。Gemini Robotics 1.5還能協助機器人反思自身行為,以更好地解決語義複雜的任務,甚至能用自然語言解釋其思考過程——這讓它的決策更加透明。這兩款模型均基於核心Gemini模型家族建構,並通過不同資料集進行微調以專精於各自職能。當它們協同工作時,可顯著提升機器人對長周期任務和多樣化環境的泛化能力。先理解「環境」再「行動」Gemini Robotics-ER 1.5是首個為具身推理最佳化的思維模型。它在學術和內部基準測試中均實現了最先進的性能表現。下面展示了Gemini Robotics-ER 1.5的部分能力,包括物體檢測與狀態估計、分割掩碼、指向識別、軌跡預測以及任務進度評估與成功檢測。三「思」而後「行」傳統上,視覺-語言-動作模型直接將指令或語言規劃轉化為機器人的運動。但Gemini Robotics 1.5不僅能翻譯指令或規劃,如今還能在行動前進行思考。這意味著它能以自然語言生成內部推理與分析序列,從而執行需要多步驟或更深層語義理解的任務。在下面這段3分40秒的視訊,Google的科學家展示了機器人如何去完成更複雜的任務。比如第一段將不同顏色的水果分類放到對應的盤子裡。機器人需要能感知環境、分析顏色並逐步完成動作。第二段Apollo被要求幫助分類洗衣物和打包物品。它能自主思考並在執行中展現出鏈式任務規劃與反應能力,例如調整籃子來更好地撿起衣物,或對臨時變化作出即時反應。跨越不同形態的具身機器人學習機器人形態各異、大小不一,具備不同的感知能力和自由度,這使得將從一個機器人學到的動作遷移到另一個機器人變得困難。Gemini Robotics 1.5展現出卓越的跨具身學習能力。它能將從一個機器人學到的動作遷移到另一個機器人,無需針對每種新形態專門調整模型。這一突破加速了新行為的學習處理程序,助力機器人變得更智能、更實用。在下面這段2分鐘的視訊裡,Google科學家展示了不同「物種」機器人之間如何泛化學習。在Gemini Robotics 1.5中,一個模型可以跨多個機器人使用。比如Aloha在衣櫃場景中已有經驗,而Apollo從未見過,卻能通過遷移學習完成開門、拿衣服等全新動作。這展示了「跨具身學習」的潛力。未來,不同場景中的機器人(如物流、零售)可互相學習,從而大大加快通用機器人研發的處理程序。 (新智元)